专业 激情 持久 卓越
好文推荐
当前位置: 首页 > 开放资源 > 好文推荐

【CVPR】Multimodal Token Fusion for Vision Transformers

发布日期:2023-09-14     返回

Multimodal Token Fusion for Vision Transformers

分享人:许新华
研究方向:场景分割
论文题目:Multimodal Token Fusion for Vision Transformers
论文作者:Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang
作者单位:北京国家信息科技研究中心(BNRist), 国家智能技术与系统重点实验室, 清华大学计算机科学与技术系、华为诺亚方舟实验室、清华大学人工智能产业研究院(AIR)
论文摘要:许多用于解决单模态视觉任务的变换器(Transformer)的改进版本已经出现,这些版本中堆叠了自注意力模块以处理像图像这样的输入源。直观地说,向视觉变换器输入多种模态的数据可能会提高性能,但内部模态的注意力权重可能会被稀释,从而大大降低最终性能。在本文中,我们针对基于Transformer的视觉任务提出了一种多模态令牌融合方法(TokenFusion)。为了有效地融合多个模态,TokenFusion动态检测无信息量的令牌,并用投影和聚合的跨模态特征替换这些令牌。我们还采用了残差位置对齐,以在融合后明确地利用跨模态对齐。TokenFusion的设计使得变换器能够在多模态特征之间学习相关性,同时单模态变换器架构基本保持不变。我们在多种同质和异质模态上进行了广泛的实验,结果表明TokenFusion在三个典型的视觉任务中超过了现有最先进的方法:多模态图像到图像转换,RGB-深度语义分割,以及使用点云和图像的3D物体检测。代码将会公开。
原文链接

click here